腾讯优图开源通用文本嵌入模型Youtu-Embedding 支持企业级语义理解应用网经社电子商务研究中心电商门户互联网+智库

当前位置：100EC>产业数字化>腾讯优图开源通用文本嵌入模型Youtu-Embedding 支持企业级语义理解应用

腾讯优图开源通用文本嵌入模型Youtu-Embedding 支持企业级语义理解应用

作者：来源：网经社发布时间：2025年10月16日 09:35:46

(网经社讯)10月14日，腾讯优图实验室正式开源了其通用文本表示模型Youtu-Embedding。该模型专为企业级应用设计，参数规模达20亿，支持文本检索、意图理解、相似度判断、分类聚类及重排序等六类核心自然语言处理任务。

据网经社云计算台（CC.100EC.CN）了解，Youtu-Embedding通过三阶段训练流程提升模型性能：首先进行大规模基础预训练，使用3万亿中英文Token语料夯实语言理解基础；随后采用弱监督对齐技术，使模型能够辨识语义相近但表述不同的文本；最后通过协同-判别式微调框架，结合统一数据格式、任务专属损失函数和动态采样机制，有效解决了多任务训练中的负迁移问题。

在技术评测方面，该模型在中文文本嵌入基准CMTEB上以77.46的综合得分位居榜首（截至2025年9月），在检索、分类、聚类等细分任务中均展现出领先性能。模型特别适用于RAG（检索增强生成）系统、智能客服和知识管理场景，能有效提升语义匹配准确率并减少大模型幻觉现象。

目前，模型权重、推理代码及完整训练框架已在GitHub和Hugging Face平台开源，支持本地部署与云端API调用两种方式，可集成至LangChain、LlamaIndex等主流开发框架。

浙江网经社信息科技公司拥有18年历史，作为中国领先的数字经济新媒体、服务商，提供“媒体+智库”、“会员+孵化”服务；（1）面向电商平台、头部服务商等PR条线提供媒体传播服务；（2）面向各类企事业单位、政府部门、培训机构、电商平台等提供智库服务；（3）面向各类电商渠道方、品牌方、商家、供应链公司等提供“千电万商”生态圈服务；（4）面向各类初创公司提供创业孵化器服务。

网经社“电数宝”电商大数据库（DATA.100EC.CN，免费注册体验全库）基于电商行业18年沉淀，包含100+上市公司、新三板公司数据，150+独角兽、200+千里马公司数据，4000+起投融资数据以及10万+互联网APP数据，全面覆盖“头部+腰部+长尾”电商，旨在通过数据可视化形式帮助了解电商行业，挖掘行业市场潜力，助力企业决策，做电商人研究、决策的“好参谋”。